Datascience para el Bien Social
  • Home
  • Categories
  • Tags
  • Archives

Primeros pasos con matplotlib.

Primeros pasos con Matplotlib.¶

Una manera facil de visualizar datos usando las principales herramientas que encontramos en Python.¶

En este notebook, vamos a mostrar 3 tipos de graficos:

- Linear Plots: Dan una primera impresion de la tendencia que siuen los datos.
- Scatter Plot: Para ver como de distpersos estan los datos.
- Bar Plots: Una forma facil de comprar datos y ver sus valores.

Despues de esto, vamos a extraer algunos insights que nos ayuden en proximas investigaciones.¶
In [4]:
%matplotlib inline

import matplotlib.pyplot as plt
import pandas as pd

unrate = pd.read_csv("unrate.csv")
unrate['DATE'] = pd.to_datetime(unrate['DATE']) #pd.to_datetime() transforms date string into a date format.

plt.plot(unrate['DATE'][0:12], unrate['VALUE'][:12])
plt.xticks(rotation = 90)
plt.xlabel("Month")
plt.ylabel("Unemployment Rate")
plt.title("Monthly Unemployment Trends, 1948")
plt.show()
In [5]:
fig = plt.figure(figsize=(10,6))
colors = ['red', 'blue', 'green', 'orange', 'black']
labels = ['1948', '1949', '1950', '1951', '1952']
unrate['MONTH'] = unrate['DATE'].dt.month

for i in range(5):
    start_index = i*12
    end_index = (i+1)*12
    subset = unrate[start_index:end_index]
    label = str(1948 + i)
    plt.plot(subset['MONTH'], subset['VALUE'], c=colors[i], label=labels[i])
plt.title("Monthly Unemployment Trends, 1948-1952")
plt.xlabel("Month, Integer")
plt.ylabel("Unemployment Rate, Percent")
plt.legend(loc='upper left')

plt.show()

Scatter Plot & Bar Plot¶

In [7]:
import seaborn as sns

df = pd.read_csv("fandango_score_comparison.csv")

columns = ['FILM', 'RT_user_norm', 'Metacritic_user_nom', 'IMDB_norm', 'Fandango_Ratingvalue', 'Fandango_Stars', 'Metacritic_norm_round']

df = df[columns]

print(df.head())
                             FILM  RT_user_norm  Metacritic_user_nom  \
0  Avengers: Age of Ultron (2015)           4.3                 3.55   
1               Cinderella (2015)           4.0                 3.75   
2                  Ant-Man (2015)           4.5                 4.05   
3          Do You Believe? (2015)           4.2                 2.35   
4   Hot Tub Time Machine 2 (2015)           1.4                 1.70   

   IMDB_norm  Fandango_Ratingvalue  Fandango_Stars  Metacritic_norm_round  
0       3.90                   4.5             5.0                    3.5  
1       3.55                   4.5             5.0                    3.5  
2       3.90                   4.5             5.0                    3.0  
3       2.70                   4.5             5.0                    1.0  
4       2.55                   3.0             3.5                    1.5  
In [8]:
plt.scatter(df['Metacritic_norm_round'], df['Fandango_Stars'])
sns.plt.show()

Bar Plot¶

  • Los Bar plots son muy utiles para comparar datos entre variables, en este caso podemos comparar facilmente por ejemplo, cada una de las columnas con la frecuencia.
In [9]:
df['Metacritic_norm_round'].plot(kind="hist")
df['Fandango_Stars'].plot(kind="hist")
plt.legend()
sns.plt.show()
  • En este caso aparece algo realmente interesante, y es que Fandango_Stars no tiene valoraciones menores de 3 lo cual es bastante sospechoso, y deberia darnos lugar a buscar la raiz de este problema en otras fuentes y ver que es lo que esta ocurriendo.

Conclusión¶

Esta es una manera super facil de comparar datos con matplotlib. Tambien hemos aprendido que seaborn puede darnos otra visualizacion de los graficos, por norma general seaborn hace los graficos mas legibles y es una manera facil de que nuestros trabajos sean mas profesionales y mas faciles de seguir. Ya estamos en disposicion de empezar a utilizar por nuestra cuenta estos 3 tipos de graficos que son de lo mas utiles:

- Linear plots.
- Scatter plots.
- Bar plots.
In [ ]:
 

Published

mar. 14, 2017

Category

Data Visualization

Tags

  • Data Visualization 5
  • Matplotlib 5
  • Python 10

Stay in Touch

Get Monthly Updates

  • Powered by Pelican. Theme: Elegant by Talha Mansoor